Hello
Hi, 很高興認識你,這次希望透過實作的方式來加深自己對數據架構的認識,也算是給自己的一個新挑戰以及一個任務的結束。這篇文章希望提供的閱讀對象,會需要對AWS、數據工程、數據分析有初步認識,所以對每個工具或服務的前情提要不會太多,除非是我沒有太多接觸或不熟悉的,也因為工具是我預先指定好的,所以在內容中不會寫太多工具比較,如果有興趣了解工具選型,或是有其他想討論的內容也歡迎隨時聯繫我一起討論。
Scope
這次打算先完成一個基本的數據平台實作,包含:
- 資料源: 主要是以批次丟進 AWS S3 的方式
- 存儲: AWS S3 + Apache Iceberg & AWS Glue Data Catalog 作為 Data Lakehouse 的方案
除了多認識 Iceberg 之外,也希望測試一些 Iceberg 特別的 Feature
- 運算: 使用 PySpark 作爲運算的框架,所以會涵蓋 AWS Glue 以及 AWS EMR 服務的使用
基本上盡量能把上面能做的寫完,再看進度串接應用情境,有想到特別的內容就再貼上來。
前置準備
在動手做之前,需要先準備:
- 綁好信用卡的 AWS Account (得要有這次不知道會花多少錢的心理準備XD)
- 我自己的 OS 是使用安裝好 Homebrew 的 macOS Sonoma 14.5,當然使用 Windows 也是可以
- Visual Studio Code & 以下的 Extensions
a. SSH
b. AWS Toolkit
c. Terraform
以上都準備好了之後我們就開始吧~